“残差连接”(Residual Connection)是深度学习中一个非常经典且重要的概念。
简单用一句话概括:它是在告诉模型,“不要从头开始重写,而是在原来的基础上做修改”。
核心概念:什么是“残差”?
在深度学习中,数据经过一层层网络处理,很容易“忘本”。
比如原始数据是 $x$,经过复杂的计算 $F(x)$ 后,输出可能变得面目全非,甚至丢失了最原始的信息。
残差连接的做法是:
把输入 $x$ 直接加到输出上。
$$ \text{输出} = F(x) + x $$
- $x$:是原始信息(保底)。
- $F(x)$:是网络学到的新变化(增量/残差)。
- 含义:模型不需要去学习“最终结果是什么”,只需要学习“需要改变多少”。
进阶应用:加权残差连接
在某些复杂的模型架构中,我们会使用带有权重的残差连接形式:
$$ \Theta = \gamma \odot \Lambda + (1 - \gamma) \odot Z_g $$
这里使用的是一种“加权残差连接”。
- $Z_g$ (原始时频特征):就像是你写的“作文初稿”(基于客观数据的)。
- $\Lambda$ (LLM对齐特征):就像是专家给的“修改意见”(基于语义理解的)。
- $\gamma$ (权重):就像是“采纳程度”。
如果没有残差连接
模型直接使用 LLM 的特征 $\Lambda$。这就好比把你的初稿扔了,全听专家的。如果专家(LLM)产生幻觉或胡说八道,预测结果就完了。
有了残差连接
模型保留了 $Z_g$(初稿)。无论 LLM 怎么瞎指挥,至少原始数据的数值趋势还在。这就相当于给模型“兜底”,保证它不会跑偏太远。